Cours 6 : Utilisation d’informations auxiliaires par calage sur marges

Paul Géhin

24 avr. 2026

Constat sur l’utilisation d’informations auxiliaires

On distingue deux types d’informations :
- \(\{y_k\}\), les variables d’intérêt : elles sont connues uniquement sur l’échantillon \(s\).
- \(\{\textbf{x}_k\}\), les variables auxiliaires : elles sont connues pour tous les individus de la population.

Le choix d’un plan de sondage sans utilisation d’informations auxiliaires peut conduire à des estimations peu efficaces :
- La variance de l’estimateur du total d’Horvitz-Thompson peut être grande.

Lorsque les probabilités d’inclusion sont liées à la variable d’intérêt alors la variance de l’estimateur du total d’Horvitz-Thompson est plus faible (l’intuition est donné dans le cas d’un plan de taille fixe par la formule de Sen-Yates-Grundy).

Comment incorporer l’information auxiliaire ?
- En amont du tirage : stratification, tirage équilibré, …
- En aval du tirage : estimation assistée par le modèle, calage …

Probabilité d’inclusion d’ordre 1 et poids

Nous avons vu qu’il était possible d’estimer le total \(\displaystyle t_y = \sum_{k \in \mathcal{U}} y_k\) en utilisant l’estimateur d’Horvitz-Thompson du total \(\displaystyle \hat{t}_{y,\text{HT}} = \sum_{k \in S} \frac{y_k}{\pi_k} = \sum_{k \in S} \color{blue}{\frac{1}{\pi_k}} \color{red}{y_k}\)

L’estimateur d’Horvitz-Thompson est donc une somme des observations sur l’échantillon des valeurs d’intérêt \((y_k)\) pondérée par \(\frac{1}{\pi_k}\).

Le terme \(d_k = \frac{1}{\pi_k}\) est le poids de sondage (initial) de l’individu \(k\).

Une interprétation possible des poids de sondage : l’individu représentera \(d_k\) individus;

Exemple :

Probabilité d’inclusion d’ordre un et poids pour un SRS de taille 4 parmi 12.
Individus \(k\)	Isaac	Antoine	Alice	Amira	Hugo	Laurent	Manu	Manon	Raymond	Billel	Jean	Jeanne
Probabilité \(\pi_k\)	\(\frac{4}{12}\)	\(\frac{4}{12}\)	\(\frac{4}{12}\)	\(\frac{4}{12}\)	\(\frac{4}{12}\)	\(\frac{4}{12}\)	\(\frac{4}{12}\)	\(\frac{4}{12}\)	\(\frac{4}{12}\)	\(\frac{4}{12}\)	\(\frac{4}{12}\)	\(\frac{4}{12}\)
Poids initial \(d_k\)	\(3\)	\(3\)	\(3\)	\(3\)	\(3\)	\(3\)	\(3\)	\(3\)	\(3\)	\(3\)	\(3\)	\(3\)

Utilisation d’informations auxiliaires en amont : stratification

La stratification permet de prendre en compte de l’information auxiliaire afin de diminuer la variance des estimateurs.

Cette information est prise en compte au moment de la conception du plan de sondage.

Plus le lien entre la stratification (ensemble des strates) et la variable d’intérêt est fort, plus les gains seront importants.
- Exemple TP 3 : variable CSP permet des gains sur l’estimation de la fréquentation en théâtre

S’il n’y a pas de lien, pas de gain.
- Exemple TP 3 : l’estimateur stratifié par département donné les mêmes résultats que l’estimateur non stratifié en terme de variance.

Problème 1 : non disponibilité des informations auxiliaires au moment de la conception du plan de sondage

La création des strates et la définition de l’allocation se font en amont du tirage :
- L’information auxiliaire doit être disponible avant le tirage.

Néanmoins, souvent quelques mois (… années) avant la réalisation

Certaines variables auxiliaires non disponibles au moment de la conception du plan de sondage peuvent être disponibles quand la collecte est finie.

Comment utiliser ces informations auxiliaires supplémentaires ?

Problème 2 : Cohérence dans la diffusion

L’utilisation d’enquêtes peut conduire à des soucis de cohérence au niveau de la diffusion.

Illustration à l’aide d’un exemple (dont les données sont disponibles ) :
- Population de 350 communes pour un total de 194 387 habitants.
- SRS de taille 100 communes parmi les 350.
- On s’intéresse au nombre d’individus se définissant comme être humain dans chaque commune.
  - Quasiment tout le monde.

L’estimateur de d’Hovitz-Thompson est sans biais ici et une réalisation donne 201 012 habitants se définissant comme être humain.

Problème de cohérence important :

Nous avons \(\displaystyle \sum_{k \in S} d_k{y_k} = \hat{t}_{x, HT} \neq t_{x} = \sum_{k \in \mathcal{U}} y_k\)

Problème ?

On estime plus d’habitants se définissant comme être humain que d’individus dans les 350 communes …

Solution : le calage sur marges

La calage sur une marge est la solution aux deux problèmes présentés.

La calage permet de :
- prendre en compte de l’information auxiliaire au moment de l’estimation
  - potentiellement, de diminuer la variance des estimateurs.
- rendre les estimations cohérentes.

Le calage consiste à modifier les poids initiaux \(d_k = \frac{1}{\pi_k}\) en poids calés \(w_k\) de manière à respecter la cohérence des estimations \(\displaystyle \sum_{k \in S} w_k{y_k} = \hat{t}_{x, \text{cal}} = t_{x} = \sum_{k \in \mathcal{U}} y_k\).

Comparaison entre poids initial \(d_k\) et poids calé \(w_k\)

Si les poids avant calage \(d_k\) et après calage \(w_k\) sont proches, alors \(\frac{w_k}{d_k}\) sera proche de 1.

Si le poids avant calage \(d_k\) est beaucoup plus grand (resp petit) que le poids après calage \(w_k\), alors alors \(\frac{w_k}{d_k}\) sera proche de 0 (resp \(\infty\)).

Donc les poids seront d’autant plus modifiés que \(\frac{w_k}{d_k}\) s’éloigne de \(1\).
- Quantifier la modification du poids de l’individu \(k \to\) quantifier l’écart entre \(\frac{w_k}{d_k}\) et \(1\).

\(\frac{w_k}{d_k}\) est appelé facteur de calage.

Formalisation du calage

Imaginons qu’on considère une fonction \(G\) permettant de quantifier l’écart entre \(\frac{w_k}{d_k}\) et \(1\).

Le calage consiste à chercher les poids calés \(w_k\) permettant de respecter la cohérence de diffusion en s’éloignant le moins possible des poids initiaux.

Ce problème peut être résumé par le programme d’optimisation suivant :

\[\underset{(w_1, ..., w_n) \in \mathbb{R}^n}{\operatorname{argmin}} \sum_{k \in S} d_k G(\frac{w_k}{d_k}) \text{ sous contrainte que } t_x = \sum_{k \in S} w_k x_k\]

Rappel : \(\displaystyle t_x = \sum_{k \in \mathcal{U}} x_k\) est connu car \(x_k\) est connu pour tout individu \(k \in \mathcal{U} \to\) information auxiliaire. Ce total est appelé marges.

L’estimateur \(\displaystyle \hat{t}_{y,\text{cal}} = \sum_{k \in s} w_k y_k\) est appelé estimateur calé (sur les variables \(x\)) du total \(y\).

Les poids calés sont fonction de l’échantillon par l’intermédiaire du programme d’optimisation : on devrait écrire \(w_k(S)\) plutôt que \(w_k\).

Fonction de pseudo-distances

\(G\) permet de quantifier l’écart entre \(\frac{w_k}{d_k}\) et \(1\).

Quelle forme pour \(G\) ?
- \(G\) correspond à une distance entre \(\frac{w_k}{d_k}\) et \(1\) \(\to\) positive.
- \(G\) doit être nulle quand les poids calés et les poids initiaux sont les mêmes (\(\frac{w_k}{d_k}\) = 1) \(\to G(1) = 0\).
- \(G\) a des bonnes propriétés pour l’optimisation \(\to\) convexe et dérivable.

Les fonctions \(G\) répondant à ces critères sont appelées fonction de pseudo-distances (on retrouve ces fonctions sous le nom de \(f\)-divergence dans la littérature hors sondage).

Méthode	Linéaire	Exponentielle
Pseudo distance	\(g(x) = \frac{1}{2}(x - 1)^2\)	\(g(x) = x\log(x) - r + 1\)
Fonction dérivée de la réciproque	\(F(u) = 1 + u\)	\(F(u) = \exp(u)\)

Exemples d’application

Nous allons caler les poids précédents sur la variable de population totale.
La fonction de pseudo-distance sera la fonction du \(\khi^2\) : \[g(\frac{w_k}{d_k}) = \frac{1}{2} \left( \frac{w_k}{d_k} - 1 \right)^2\]

La fonction sampling::calib utilise :

les variables auxiliaires par individu.
le poids de sondage initial (pour l’estimateur d’Horvitz-Thompson).
le total des variables auxiliaires
la méthode de calage.

Cette fonction retourne un vecteur \((g_1, ..., g_n)\) où \(g_k = \frac{w_k}{d_k}\).

Afin d’obtenir l’estimation associée à l’estimateur calé :

il faut calculer les poids calés en multipliant la sortie de la fonction calib par le poids initial.
calculer \(\sum_{k \in s} w_k y_k\).

Comparaison des méthodes de calage

Le choix de la fonction de distance a une incidence sur les poids calés obtenues :
- La méthode linéaire permet de toujours converger (s’il n’y a pas de variables linéaires liées).
  - Cependant, cette méthode peut conduire à des poids négatifs.
- La méthode exponentielle permet d’obtenir des poids positifs.
  - Cependant, les poids peuvent être très grands (conduisant à une forte variance) ou l’algorithme peut ne pas converger.
- Les méthodes bornées permettent de contrôler les facteurs de calage mais ne convergent pas systématiquement.

Cependant, comme nous verrons plus tard, asymptotiquement la variance de l’estimateur calé est la même pour tous les individus.

Cas particulier

Choix pratiques

Il est recommandé de choisir des variables de calage liées à la variable d’intérêt afin de diminuer la variance des estimations.

Il est déconseillé d’utiliser plusieurs variables de calage très corrélées.

Il est conseillé d’éviter de mettre un nombre excessif de variables de calage.

Pour les méthodes bornées, en cas de non-convergence, il est conseillé de relaxer les bornes.

Il faut que les marges soient cohérentes entre elles.

Biais et estimation de la variance

Attention : comme \(w_k(S)\) est fonction de l’échantillon, on ne peut plus utiliser la linéarité de l’opérateur d’espérance pour calculer l’éventuel biais. Cependant, l’estimateur calé est approximativement sans biais.
Comme indiqué, la variance asymptotique de l’estimateur calé est indépendant de la méthode utilisée.
La variance asymptotique est approximativement celle de l’estimateur d’Horvitz-Thompson des résidus \(\hat{\varepsilon}_k\) de la régression linéaire de la variable d’intérêt \(y_k\) sur les variables auxiliaires \(x_k\).
Ces résidus sont calculables en utilisant la fonction calibev du package gustave.


library("data.table")
library("sampling")

ech <- fread("https://sondages.cours.gehin.net/Cours/Cours%206/data/ech.csv", dec = ",")
HTestimator(ech$humain, ech$prob_inclu)
tot <- 194387
n <- nrow(ech)
N <- 350
g <- calib(ech$pop, d=1/ech$prob_inclu, tot , method = "linear")
tot_cal <- crossprod(g/ech$prob_inclu, ech$pop)

#Calcul de la matrice des pikl du SRS(n,N)
pikl <- matrix((n*(n-1))/(N*(N-1)), n, n)
diag(pikl) <- n/N

#Calcul de la variance
calibev(ech$humain,ech$pop,tot, pikl,
1/ech$prob_inclu, g, with = TRUE)